증분 배치의 고단함
2025/05/14
몇 번 쓴 이야기지만.
- 주어진 툴로만 풀려니까 성능이 안 나오는 상황이다.
- 성능이 안 나오니까 증분 배치로 처리한다.
- 증분 배치로 처리하니까 upsert가 생긴다.
- 증분 배치로 처리하니까 겹침, 누락이 생기고 이를 체크하거나 복원해야 한다.
- 증분으로도 안 되는 것을 막기 위해 주말 심야 풀배치를 따로 돌린다.
- 광역 데이터에 영향이 발생하면 또 풀배치를 따로 돌린다.
- 예기치 않은 6번의 풀배치에 의해 다른 배치들을 중단시키거나 보정 배치를 돌려야 한다.
- 복잡해졌으니 실패지점 파악을 자세히 해야 한다.
- 실패 지점에 따른 복원 전략을 따로 구성해서 복원 배치를 만들어야 한다.
- 아 진짜..
어떻게 해결하나.
-> 그냥 고성능 풀배치를 만들면 된다.
오늘 발견한 레거시에서는 쿠두를 쓰고 있었다. 조회만 하는 것이라 그냥 하이브 물린 임팔라면 가능하지 않았나.. 왜 쿠두일까. 내가 잘 몰라서 그랬나...
... 아 증분배치가 있었구나. 증분이라 upsert를 하고 있다. insert overwrite를 한 번에 하면 하이브-임팔라면 된다.
아 진짜..
핵심이 아예 우수하면 무수한 수리 지점의 광역 삭제가 가능하다.
자꾸 완제품 툴로만 만드려니까 안 되는게 한 둘 발생하고 어어.. 그 한 둘 때문에 서 넛 파생이 발생하고 어어... 어버버... 한다.
[t:/] is not "technology - root". dawnsea, rss